MLPerf推理4.0结果揭晓,GenAI亮相;NVIDIA继续稳居榜首,保持主导地位
2024年3月27日公布的最新MLPerf推理基准测试(4.0)结果并未带来令人瞩目的新发现。随着ML技术的迅猛发展,两个全新的工作负载——Llama 2与Stable Diffusion XL——被纳入了基准测试套件中。
NVIDIA继续展示了H100与H200的卓越表现,而Qualcomm的Cloud AI 100 Ultra(预览版)与Intel/Habana的Gaudi 2也呈现出强劲的增长势头。值得一提的是,Intel成为唯一一个将CPU作为加速器的参与者。
Juniper Networks作为首次参与者,凸显了网络在AI领域的重要性。同时,Red Hat与Supermicro联合提交的方案也充分利用了OpenShift AI的优势。云基础设施提供商Wiwynn亦成为此次的新晋提交者。
总体来看,近年来参与基准测试的组织数量保持相对稳定。此次共有23家组织参与,包括ASUSTeK、Azure、Broadcom、Cisco、CTuning、Dell、Fujitsu、Giga Computing、Google、HPE、Intel、Intel Habana Labs、Juniper Networks、Krai、联想、NVIDIA、Oracle、Qualcomm Technologies, Inc.、Quanta Cloud Technology、Red Hat、Supermicro、SiMa和Wiwynn。MLPerf推理v4.0共收集了来自这些组织的8500多项性能结果及900项功耗结果。
值得一提的是,此次并未出现NVIDIA与其竞争对手间激烈竞争的场面,因为至少在现阶段,推理加速器的整体排名似乎已趋于稳定。NVIDIA加速计算产品总监David Salvator分享了一个有趣的信息,他透露推理收入现已占据NVIDIA数据中心收入的40%。
“推理已成为我们数据中心业务的重要组成部分,”Salvator表示,“在最近的财报电话会议中,我们提到去年推理收入约占我们数据中心收入的40%。这主要得益于推理正逐渐成为更为核心的工作负载。一旦应用程序部署完成,它们通常会全天候运行。相比之下,训练完成后,系统便基本处于空闲状态。而推理,一旦应用部署,便持续运行,并逐渐成为AI工作负载的重要组成部分。”
自2018年推出以来,MLPerf在加速器市场逐渐稳固其地位,虽然过程中可能略显平淡,但对于比较不同用例中多样配置系统的性能结果仍具有实用价值。与Top500榜单不同,MLPerf并没有单一的胜者。MLCommons执行董事David Kanter一直强调,要获取有价值的结果,必须深入研究数据,以相同条件对比的方式比较各系统性能。
“在我看来,基准测试的目的在于促进行业共识的形成。它有助于为买家提供决策依据,了解系统在相关工作负载下的表现,无论是本地系统、云系统还是嵌入式系统。因此,如果您计划购买用于运行大型语言模型推理的系统,基准测试将为您提供宝贵的指导。同时,对于行业内的解决方案提供商而言,这些基准测试也有助于他们理解如何优化和改进产品。”Kanter说道。
“此次我们新增了两个基准测试,均为生成式AI领域。第一个是文本到图像生成的Stable Diffusion XL,第二个是用于问答的Llama 2大型语言模型。现在,这两个基准测试都要求我们为服务器、服务器模式以及离线模式提出延迟要求。我想强调的是,MLPerf推理模型的参数数量随时间呈现显著增长。您可以看到,就像AI技术的发展一样,它呈现出一种急剧上升的趋势。我记得在我们第一轮MLPerf推理(v.5)中,最大的模型仅有约2亿个参数,而现在我们已经达到了惊人的700亿。”他补充道。
第一批MLPerf推理结果于2019年揭晓,主要聚焦于三项核心任务:图像分类、目标检测以及机器翻译。大约是在首批训练结果公布一年后。
MLCommons对于新添的两个基准测试的决策过程进行了详细解读,相关信息已在MLCommons网站上公布。参与此次工作的团队成员包括:Thomas Atta-fosu(Intel工作组主席)、Akhil Arunkumar(D-Matrix)、Anton Lokhomotov(Krai)、Ashwin Nanjappa(NVIDIA)、Itay Hubara(Intel Habana Labs)、Michal Szutenberg(Intel Habana Labs)、Miro Hodak(AMD)、Mitchelle Rasquinha(Google)以及Zhihan Jiang(NVIDIA)。这一阵容凸显了竞争对手公司间合作的理念。
从实际操作层面来看,要从这些结果中提炼出有价值的信息并非易事。此次MLPerf的结果展示在一个新的平台——Tableau上,至少对我来说,要高效利用这一强大的平台还需一番摸索。不过,数据本身是丰富的。按照惯例,MLCommons邀请了基准测试参与者提交相关声明的文章,这些声明已附在文末。请注意,从众多营销信息中筛选出有价值的见解确实需要一番功夫。
NVIDIA继续领跑
NVIDIA依然是AI加速器领域的领军者,也是唯一一家提交了所有工作负载的参与者。
MLCommons通常会为媒体和分析师举行一场概述性的预先简报会,参与者在会上可以对结果进行评论,但不得直接进行竞争性比较。各公司也可自行组织单独的简报会,以凸显自身的竞争优势。
在私下举行的简报会上,NVIDIA表现得相对低调,这引发了一位分析师的疑问:“似乎少了些什么。你们通常会展示一张柱状图,展示你们提交的所有不同基准测试的结果,以及与之前或竞争对手的对比情况。但我在这个幻灯片里没看到这个。这是怎么回事?”
Salvator回应道:“嗯,这些结果将在ML Commons网站上全面公开。我们决定在这一轮中重点关注更新的工作负载,特别是Llama 2工作负载,我们认为这真正代表了当前的技术前沿。我们确实在每个工作负载上都有提交,所有数据都在那里。至于Llama 2,这次我们展示了Intel/Habana的Gaudi2的一个竞争性提交……这是另一个主要的提交者。还有一些以CPU为中心的结果也被提交了,坦率地说,我们的表现远比那些结果要好。”
相反,Salvator更关注推理的日益复杂化,以及NVIDIA的TensorRT-LLM编译器在提升H100和H200性能方面的进步,特别是在Llama 2上的表现。他表示,基于H200的系统被列入预览类别,因为在提交时它们尚未上市,但现在已经可以买到了,他还提到联想是目前提供H200系统的供应商之一。
Salvator讨论的许多内容在GTC24大会上已经提及。他谈到了NVIDIA MGX,这是一个模块化参考设计,支持不同的机箱和热印记,以及NVIDIA推理微服务(NIM)。
当被问及即将推出的Blackwell GPU——B100和B200,以及它们与现有H100和H200系统的兼容性问题时,Salvator表示:“我们没有设计B200与H200 CTS系统的兼容性。B100的兼容性更强,因为我们有一个相当大规模的H100基础服务器装机量,而且我们的许多合作伙伴都清楚如何构建这些服务器。因此,能够轻松替换成B100基础板可以让他们更快地进入市场。而B200则需要不同的机箱设计,它与H200系统并不兼容。”
Intel/Habana大力宣传其高性能与低成本优势
近年来,Intel逐渐涉足MLPerf领域,将其Gaudi加速器系列作为与NVIDIA GPU及其第五代Xeon CPU相比,具有高性能和低成本优势的替代品,尤其适合推理或训练在混合工作负载中占比不高的系统。
在最新的MLPerf推理运行比较中,Intel针对Stable Diffusion XL和Llama 2工作负载,提供了Gaudi 2与NVIDIA H100的性能与成本对比。
以下是Intel供应商声明的一部分内容:
“Intel Gaudi 2加速器,这款7nm处理器,在MLPerf推理的最新模型上取得了稳定的性能表现。在Stable Diffusion XL上,Gaudi 2加速器的离线样本每秒和服务器每秒查询数分别为6.26和6.25;而对于Llama v2-70B,离线和服务器每秒标记数分别为8035.0和6287.5。鉴于市场对Hugging Face TGI(文本生成接口)的强烈需求,Intel采用了支持连续批处理和张量并行的TGI服务工具包来提交Llama结果,从而提高了实际场景中LLM扩展的效率。Intel Gaudi软件套件持续扩大我们对最高客户需求的LLM和多模态模型的覆盖范围。”
在Intel的单独预先简报会上,Habana Labs的首席工程师兼高级研究员Itay Hubara表示:“我们很高兴提交了TGIK,这是一个开源的Hugging Face服务,是社交领域使用最广泛的服务。您可以看到,根据第三方评估,右侧是基于价格性能进行的归一化比较。我认为这是一个公平的比较。”
他提到,成本比较是基于系统成本而非运营成本进行的,但未提供更多细节。
IntelXeon AI产品总监Ronak Shah补充说:“Gaudi一直在不断进步,以便我们能提供易于使用的体验,无论是通过标准框架如pytorch,还是利用Hugging Face TGI。在这次提交中,这使得用户能够获得开箱即用的性能,并通过行业中可用的标准框架提供这些类型的结果。”
这是Intel首次在MLPerf中展示第五代Xeon,Shah展示了它与第四代Xeon的结果对比。
“您可以在这里看到,与第四代Xeon和上一次提交相比,我们的性能提升了1.42倍。令我兴奋的是,我们在2023年初推出了第四代Xeon,在2023年底推出了第五代,而在短短一年内,这既是硬件的组合,也是从第四代到第五代的增强,以及软件优化,共同实现了这种1.42倍的性能增长。令人兴奋的是我们能够如此迅速地获得如此大的性能提升,并且我们能够真正利用一些底层架构的增强,”Shah说道。
Shah指出,这次在MLPerf中提交的系统范围相当广泛。以下是一些供应商提交声明的摘录:
Juniper Networks:“对于MLPerf推理4.0,Juniper Networks提交了一套针对Llama 2、700亿参数大型语言模型(LLM)在Juniper验证设计(JVD)上运行的测试套件,该设计采用了具有轨道优化设计的脊-叶网络拓扑结构。多节点数据中心设置由Juniper AI优化以太网布线提供支持,包括ROCEv2用于GPU间通信。在NVIDIA A100和H100集群上进行了测试和验证,其中包括内部轨道和轨道间的组合。这是有史以来第一个向MLCommons提交的多节点以太网。” Qualcomm:“在v4.0回合中,Qualcomm推出了AI推理加速器Cloud AI 100 Ultra,并提交进行了‘封闭预览’模式评估。Cloud AI 100 Ultra的早期预览结果展示了其在低功率下的出色性能,这在其在ML基准测试中的表现中得到了体现。与Cloud AI 100 Pro提交相比,所有Cloud AI 100 Ultra提交展示了2.5到3倍的性能提升,同时每个加速器的功耗都低于150W。除了NLP和计算机视觉网络,我们还推出了GenAI Stable Diffusion XL提交。我们的合作伙伴Dell、HPE和联想也提交了他们的Cloud AI 100 Ultra卡的预览结果。” Red Hat和Supermicro:“Supermicro,作为大规模AI数据中心基础设施的构建者,以及全球领先的企业开源解决方案提供商Red Hat公司,共同合作完成了有史以来第一个Red HatOpenShift AI MLPerf推理v4.0提交。此次提交展示了OpenShift AI模型服务堆栈的灵活性,支持使用自定义运行时特性来支持开源LLM运行时,如vLLM。我们还自豪地宣布,在本轮比赛中,我们是唯一一家使用vLLM在NVIDIA GPU上提交了GPT-J-6b和llama-2-70b结果,且没有进行任何量化或模型编译的参赛者。” Wewynn:“在边缘类别中,我们针对配备两个NVIDIA L40S GPU的ES200G2系统进行了基准测试,适用于图像识别等AI应用。而在数据中心类别中,我们也对搭载Intel第五代Xeon处理器的ES200G2系统进行了基准测试,它可以形成服务器池以执行多样化任务。这两个结果均表明,该平台能够支持主流的AI框架,并实现出色的性能。”
接下来,我们即将迎来六月进行的MLPerf Training活动。
MLCommons新闻稿链接:https://www.hpcwire.com/off-the-wire/new-mlperf-inference-benchmark-results-highlight-the-rapid-growth-of-generative-ai-models/
MLPerf推理4.0数据中心结果链接:https://www.hpcwire.com/off-the-wire/new-mlperf-inference-benchmark-results-highlight-the-rapid-growth-of-generative-ai-models/
Asus
在追求卓越的MLPerf v4.0推理基准的旅程中,ASUSTeK不仅致力于优化性能和可靠性,更积极推动AI技术在各领域的广泛应用。我们坚守社区参与的理念,深知其在促进协作、知识共享及机器学习领域集体进步中的关键作用。
在性能调优方面:
我们与ASUSTeK ESC8000-E11P、Intel第四代至强可扩展处理器以及NVIDIA H100 PCIe GPU解决方案紧密合作,核心目标便是持续追求性能优化。借助GPU服务器强大的计算能力,我们深入探索基础设施各方面的精细调整。通过精心设计的实验和创新技术,我们在吞吐量、延迟和效率方面均取得显著提升。我们的解决方案旨在充分发挥GPU的潜能,为实际推理场景提供无与伦比的速度和响应能力。
在可靠性增强方面:
除了MLperf推理v4.0,我们还高度重视提升GPU服务器的可靠性。深知在关键任务应用中稳定性的重要性,我们实施了强有力的机制,旨在减少停机时间、预防瓶颈并增强容错能力。经过严格的测试和验证程序,我们的基础设施在不同工作负载和操作条件下均能稳定提供卓越性能。
在社区参与方面:
除了技术实力,我们对MLPerf社区的承诺也是我们成功的基石。我们积极参与知识交流论坛,分享见解,并与同行合作推动创新。通过分享最佳实践、经验教训及旅程中的洞察,我们为社区的集体智慧贡献力量,营造合作与共同成长的良好氛围。
综上所述:
在MLPerf 4.0推理基准领域,我们的成就不仅体现在性能指标和可靠性基准上。它们同样源于我们对社区参与和合作精神的坚守。随着我们不断突破边界,我们对推动机器学习领域集体进步的承诺始终如一。在共同努力下,我们迈向一个充满无限创新的未来,这正是合作与知识共享力量的体现。
Broadcom
作为虚拟化技术领域的佼佼者,Broadcom旗下的VMware通过提供前沿的基础设施解决方案,为全球企业赋能,助力客户高效、安全、灵活地构建、运行和管理应用程序的数据中心。针对ML和AI工作负载,我们的软件解决方案与众多硬件供应商紧密合作,以实现这些工作负载的规模化。Broadcom、Dell与NVIDIA强强联手,将虚拟化的魔力注入MLPerf推理v4.0的加速器数据中心。除了传统基准测试,Broadcom、Dell与NVIDIA还针对新的稳定扩散(文本到图像)基准测试,提交了卓越的成绩。我们的结果不仅接近裸金属性能,甚至更胜一筹,同时还享有数据中心管理的虚拟化优势。
我们在Dell XE9680上运行了MLPerf推理工作负载,配置了8个虚拟化的NVIDIA SXM H100 80GB GPU,并在Dell R760上运行了2个虚拟化的NVIDIA L40S 80GB GPU,配合vSphere 8.02和NVIDIA vGPU。测试中,我们仅使用了120至224个可用CPU中的32个,以及1T至1.5T可用内存中的128GB。这仅仅是系统容量的一小部分。因此,客户可以在同一系统上利用剩余的CPU和内存容量运行其他工作负载,从而节省ML/AI基础设施成本,并利用VMware vSphere的虚拟化优势来高效管理数据中心。与裸金属的性能比较显示,vSphere 8.0.2与NVIDIA虚拟化GPU是AIML工作负载的理想选择。
Cisco
如今,各行各业的企业纷纷认识到AI和ML的巨大潜力。它们正为企业解决复杂问题开辟新的途径。
Cisco作为MLCommons社区的新成员,与Intel携手,在MLperf v4.0推理中成功提交了大型语言模型(LLM)、图像分类(视觉)、目标检测(视觉)和语音转文本(语音)等数据中心类别的出色结果。
Cisco提交的推理结果基于Cisco UCS C240 M7服务器,该服务器搭载了Intel第五代至强处理器。Cisco UCS C240 M7服务器凭借Intel第五代至强可扩展处理器,在2RU的机架尺寸中展现出卓越的性能和优化的效率,成为AI推理的理想之选。
作为MLCommons社区的新成员,Cisco始终支持社区在各种AI训练、推理和HPC工作负载的服务器解决方案基准测试方面的工作。在最新的MLPerf 4.0推理测试中,Cisco为搭载Intel第五代至强处理器的CiscoUCS C240 M7平台提交了卓越的成绩,该系统在大多数推理模型中均表现出色。
CTuning
在本次提交中,我们对第二代MLCommons CM-MLPerf工作流和CK游乐场进行了测试,以实现对各种边缘服务器、笔记本电脑和云提供商的自动化基准测试。测试范围涵盖了基于NVIDIA、Intel、亚马逊和Qualcomm基础硬件的AWS和Cirrascale平台,共测试了9528个性能结果中的8683个以及988个功耗结果中的905个。
CM-MLPerf旨在提供一个统一且用户友好的命令行界面、简洁的图形用户界面以及可扩展的Python、C++和网络实现模板,以便从不同供应商运行所有MLPerf推理基准测试,并以统一和自动化的方式提交结果。
新版本的CM-MLPerf是由cTuning基金会和cKnowledge根据MLCommons在上一轮提交后的反馈开发的,特别感谢MLCommons成员和研究界(ACM/IEEE MICRO'23和SuperComputing'23)的宝贵意见。
CM-MLPerf工作流首次成功实现了对所有边缘+数据中心工作负载的自动化(使用llama2-7b模型完成了llama2提交),并成功集成了来自NVIDIA、Intel、Qualcomm、Neural Magic和MLCommons的各种实现。
我们非常荣幸地首次在云中使用MLCommons CM对Qualcomm Cloud AI 100系统进行基准测试,并衷心感谢Qualcomm的大力支持。同时,我们也感谢来自Intel、NVIDIA和Google的同事们提供的宝贵反馈和建议。
我们诚邀所有人使用和完善MLCommons CM-MLPerf自动化工具,并参与新项目,通过MLPerf和CM作为协作工程的一部分,共同设计高性能和成本效益的AI应用程序和系统。
以下图表由CM-LPerf资源管理器插件生成,展示了我们在提交系统上边缘模型的延迟(均使用NVIDIA RTX 4090),在MLPerf推理中取得了令人瞩目的最佳延迟成绩之一。NVIDIA RTX 4090还展现了令人印象深刻的离线和服务器性能,正如我们的数据中心结果所证实的那样。
Dell Technologies
Dell以其广泛的GenAI解决方案系列脱颖而出,涵盖台式机、数据中心至云端的全领域。公司站在AI发展的前沿,Dell PowerEdge XE服务器系列为这场变革之旅奠定了基石。
在MLPerf推理v4.0基准测试领域,Dell Technologies展现了其坚定承诺,提交了高达281项成果,涵盖多种模型,包括使用Qualcomm、Broadcom、NVIDIA和IntelCPU与加速器的创新型Llama2-70b、Stable Diffusion XL和GPT-J的测试。这些测试覆盖广泛的产品,突显Dell通过其PowerEdge服务器系列为不同AI工作负载提供卓越服务的能力。
Dell PowerEdge XE系列,特别是搭载NVIDIA张量核心H100 GPU的服务器,在大型语言模型、图像分类等领域表现出色。此外,Dell在系统效率方面的努力通过PowerEdge XR5610与NVIDIA L4 GPU得到进一步彰显,优化了边缘工作负载的性能。
Dell PowerEdge XE加速服务器系列在多个基准测试中持续展现显著的性能提升。以下是部分最新亮点:
PowerEdge XE9680搭载8个NVIDIA H100张量核心GPU,持续为Dell在大型语言模型、文本至图像、语音至文本、语言处理、图像分类和推荐等领域提供卓越性能。
PowerEdge XE9640的4 GPU直接液冷和空冷PowerEdge XE8640在GenAI模型、图像分类、目标检测、语音至文本、语言处理、摘要、医学图像分割等方面取得显著成果。
PowerEdge XR5610与NVIDIA L4 GPU在边缘工作负载中表现卓越,每瓦每GPU的系统性能同样出色。
Dell诚邀客户在全球客户解决方案中心体验这些技术进展,与其创新实验室合作,并访问卓越中心,深入了解AI解决方案。
Fujitsu
Fujitsu通过整合一系列系统、解决方案和专业知识,确保最大的生产力、效率和灵活性,为客户提供信心和可靠性。自2020年起,我们积极参与并提交数据中心和边缘部门的推理与训练轮次。
本轮中,我们使用两套系统向数据中心封闭部门提交成果。首套系统是PRIMERGY CDI,配备16个L40S安装在一个外部PCIe BOX中。第二套系统是GX2560M7,搭载4个H100-SXM,安装在服务器内部。此外,我们还使用PRIMERGY CDI向数据中心封闭功率部门提交成果。
PRIMERGY CDI可通过在三个外部PCI-BOX中安装最多20个GPU作为单节点使用。系统配置可根据训练和推理工作负载的大小灵活调整。本轮中,我们在PRIMERGY CDI系统上安装16个L40S,并运行稳定扩散和gptj。测量结果如下图所示。通过使用配备多个L40S的系统,我们验证了其出色的性能。
我们的目标是通过创新建立社会信任,让世界更加可持续。凭借丰富的创新和专业知识传统,我们致力于为社会和尊贵客户的发展做出贡献。因此,我们将继续满足客户需求,并通过MLCommons活动提供具有吸引力的服务器系统。
Giga Computing
Giga Computing技术,作为Giga旗下全资子公司,源自Giga的业务拆分,专注于服务器、服务器主板、浸入式解决方案和工作站的设计、制造与销售。
作为MLCommons的创始成员,Giga Computing始终支持社区为各种AI训练和推理工作负载基准测试服务器解决方案的努力。继上一轮v3.1推理基准测试后,Giga Computing在最新一轮MLPerf推理v4.0中再度发力,推出了强劲的GIGABYTE G593-SD1系统。该系统搭载最新的第五代Intel至强可扩展处理器与八个NVIDIA H100 SXM5 GPU,拥有高数据带宽和精心优化的数据处理配置。结果显示,它在所有基准测试任务中均展现出卓越的效率与顶级性能。这一出色成绩再次印证了我们对于提供顶级功能与优化的坚定承诺。
Giga Computing不断追求卓越,提供远程测试和公共基准测试服务,以便进行系统评估。我们致力于推动效率提升,积极探索先进的冷却技术,如浸入式和DLC,以应对未来电力消耗的挑战。请继续关注我们,因为我们将在Giga Computing的卓越计算领域持续突破界限。
Google Cloud
NVIDIA GPU与Google Cloud的基础设施技术强强联合,为行业带来领先的规模和性能。今年8月,我们宣布A3 VM现已全面上线;A3 VM搭载单个VM中的NVIDIA 8 H100 Tensor Core GPU,专为满足高要求的训练和gen AI工作负载及LLM设计。A3 VM展现出超级计算能力,AI性能高达26 exaflops。
在MLPerf推理v4.0基准测试中,Google提交了20项出色成果,其中包括使用A3 VM的新Stable Diffusion XL和Llama 2(70B)测试结果。Stable Diffusion XL和Llama 2的测试成绩与NVIDIA提交的峰值性能相比,差距在1-4%之间。强大的A3 VM测试结果再次证明了Google Cloud与NVIDIA的紧密合作,我们共同为LLM和gen AI打造了针对工作负载优化的端到端解决方案。
HPE
HPE(HPE)携手NVIDIA、Qualcomm和KRAI成功提交了一系列高性能推理系统成果,这些系统广泛应用于数据中心的计算机视觉(CV)、自然语言处理(NLP)、生成AI(GenAI)和大型语言模型(LLM)。HPE服务器的性能成果在数据中心-封闭、数据中心-开放和数据中心-网络部门均有出色表现。
HPE Cray Supercomputing (SC) XD670(配备8个NVIDIA H100 SXM 80GB,700W TDP*) HPE ProLiant DL380a Gen11服务器(配备4个NVIDIA H100 PCIe 80GB,400W TDP*) HPE ProLiant DL380a Gen11服务器(配备4个NVIDIA L40S PCIe 48GB,300W TDP*) HPE ProLiant DL380a Gen11服务器(配备8个Qualcomm Cloud AI 100 Ultra 128GB,150W TDP*)
HPE Cray SC XD670与NVIDIA H100 SXM在Bert 99.0离线场景的NLP测试中展现出了最高性能成果 HPE ProLiant DL380a搭载4个NVIDIA H100 PCIe在Llama2 70B模型测试中取得最高性能成果,尤其在使用四个或更少PCIe连接的GPU时表现卓越 HPE ProLiant DL380a配备4个NVIDIA L40S在CV、NLP、GenAI和LLM类GPU中表现出色 HPE首次提交了使用8个Qualcomm Cloud AI 100 Ultra加速器在HPE ProLiant DL380a Gen11服务器上进行CV和NLP的MLPerf推理预览成果
我们感谢KRAI的合作与支持,共同为Qualcomm Cloud AI 100 Ultra加速器实现了高性能和能效的突破。
TDP表示每个GPU或加速器的热设计功耗。
Intel
Intel提交了Intel Gaudi 2 AI处理器在MLPerf推理v4.0中的表现成果,并首次公开了第五代至强可扩展处理器的卓越性能。这些显著成绩充分展现了Intel致力于提供全方位的AI产品,全面满足广大客户的多样化AI需求。
Intel Gaudi 2加速器作为一款7纳米处理器,在MLPerf推理中为顶级模型带来了稳定且出色的性能表现。在Stable Diffusion XL测试中,Gaudi 2加速器实现了6.26的离线样本每秒和6.25的服务器每秒查询性能;在LLama v2-70B测试中,则分别达到了8035.0的离线令牌每秒和6287.5的服务器令牌每秒。鉴于市场对Hugging Face TGI(文本生成接口)的强烈需求,Intel利用支持连续批处理和张量并行的TGI服务工具包提交了LLama成果,有效提升了实际LLM扩展的效率。同时,Intel Gaudi软件套件也在不断增加覆盖范围,以满足客户对LLM和多模型的最迫切需求。
值得一提的是,Intel仍是唯一一家提交MLPerf结果的CPU供应商。自2020年起,Intel已连续为四代至强产品提交了MLPerf成果。此次,Intel针对搭载Intel Advanced Matrix Extensions(AMX)的第五代Intel Xeon Scalable处理器提交的成果表明,CPU在通用AI工作负载方面展现出卓越的性能。与去年MLPerf推理v3.1中第四代至强的表现相比,Intel第五代至强由于硬件和软件的双重优化,几何平均值性能提升了1.42倍。
在软件优化方面,针对GPT-J的连续批处理优化使Intel的至强处理器性能相较于v3.1提交成果提升了约1.8倍。同样,由于MergedEmbeddingBag和其他优化技术的运用,尤其是AMX的加持,DLRMv2的性能也提升了约1.8倍,同时保持了99.9%的高准确性。
Intel为能与OEM合作伙伴——Cisco、Dell、Quanta、Supermicro和WiWynn共同提交MLPerf成果感到自豪。这些合作成果充分展示了Intel在AI领域的深厚实力与广泛合作。
随着软件的不断更新和优化,Intel对其加速器和CPU在性能和生产力方面的持续提升充满信心。
Juniper Networks
在MLPerf推理4.0中,Juniper Networks凭借在Juniper验证设计(JVD)上运行的70亿参数大型语言模型(LLM)Llama 2的出色表现脱颖而出。该测试采用了先进的脊叶网络拓扑结构和轨道优化设计,充分展示了Juniper在AI领域的创新实力。多节点数据中心设置得到了Juniper AI优化的以太网布线的有力支持,其中QFX系列交换机利用ROCEv2技术实现了高效的GPU间通信。整个测试和验证过程均在Juniper AI实验室中完成,该实验室配备了高性能的NVIDIA A100和H100集群,支持轨内和轨间组合的灵活部署。这也是Juniper首次向MLCommons提交多节点以太网方案,标志着公司在AI网络领域的重大突破。
Juniper非常荣幸能与MLCommons携手合作,共同推动AI创新,并助力全球企业更轻松、更快速、更经济地部署AI数据中心基础设施。生成式AI(如LLama)正在不断挑战计算、存储和网络系统的性能极限。训练这些模型需要解决庞大的并行处理问题,而这离不开强大的网络解决方案。AI工作负载具有独特的特性,对网络提出了新的要求,但Juniper凭借过去25年的丰富经验,有信心应对这些挑战。要使AI集群基础设施从早期采用阶段过渡到大众市场,我们必须充分利用开放技术,汇聚行业生态系统的集体力量和创新智慧。
Juniper始终坚持以客户为中心的运营理念,通过提供意图为基础的网络、AIOps和800Gb以太网等市场领先能力,帮助客户轻松管理整个AI数据中心网络生命周期。采用以太网和Apstra数据中心布线自动化软件等开放技术,可以有效消除供应商锁定,降低成本并推动创新。同时,这些技术还能实现AI训练、推理、存储和管理网络的通用网络操作,提升整体运营效率。此外,Juniper提交给MLCommons的经过严格预测试和验证的设计方案至关重要,它确保了客户能够独立部署安全可靠的数据中心基础设施。
KRAI
KRAI,这家成立于2020年的企业,坐落于英国剑桥的“硅沼”(Silicon Fen)地带,致力于为工程设计领域提供超高效、高性价比的AI计算机系统定制服务,涵盖高级基准测试与优化解决方案。值得一提的是,自2019年起,KRAI团队已连续参与所有九个MLPerf推理回合,这一成就在60多家参与者中仅由另外三家提交者达成。
第4.0回合的到来,标志着Qualcomm与KRAI之间合作的第三个年头。为庆祝这一重要时刻,我们特别关注并展示了Cloud AI 100 Ultra加速器的卓越表现。具体而言,GIGABYTE G293-Z43 2U服务器装配了16个单宽Ultra加速器,在ResNet50上实现了惊人的超过900,000个样本/秒的速度,而在RetinaNet上也达到了近15,500个样本/秒的速度。每个Ultra加速器拥有64个AI核心,这一突破性的成就代表着我们在单个系统中实现了线性扩展到1,024个AI核心,这一数字远超之前的最高记录——288个核心(使用18个Pro加速器)。我们将这超高性能、高效率和可扩展推理的“魔法源泉”以备受赞誉的KRAI推理库技术(KILT)代码库的新公开版本形式,与整个社区共享。在本轮比赛中,KILT被Qualcomm、KRAI、HPE、Dell、联想和CTuning的提交所广泛应用。
作为KRAI的另一骄傲时刻,我们与Google携手合作,利用最新一代的Tensor Processing Units复制并优化了LLM的提交。我们热忱欢迎Google Cloud客户使用KRAI X技术自动化的工作流程,以复制TPU-v5e的卓越表现。
在此,我们要特别感谢HPE提供了一台装备了8个Cloud AI 100标准加速器和200GbE网络设备的ProLiant DL385服务器,这使得我们在本轮比赛中成为唯一的网络封闭提交者。值得一提的是,与上一轮使用的10GbE网络相比,此次的网络升级极大地提升了我们对更需要带宽的RetinaNet基准测试的支持能力,同时也满足了带宽需求较轻的BERT基准测试的要求。
联想
联想矢志不渝地为广大用户带来更智能的技术解决方案,涵盖硬件与软件等全方位服务。为了实现这一目标,我们积极参与MLPerf推理v.4.0的研究与测试,并在基准测试中取得了卓越成果。
通过与MLCommons的紧密合作,联想得以每季度通过MLPerf基准测试展示我们的创新实力。我们与NVIDIA和Intel携手,共同应对重要的AI挑战,如图像分类、医学图像分割、语音转文本和自然语言处理等,从而取得了业界领先的成果。
我们自豪地宣布,联想的ThinkSystem SE360(配备2个NVIDIA L4)以及SE450、SE455(均搭载2个NVIDIA L40 Edge服务器)参与了这些任务的角逐。这些合作不仅推动了我们技术的持续进步,更为我们的客户提供了卓越的技术支持,确保他们在激烈的市场竞争中保持领先地位。
与MLCommons的合作为我们提供了宝贵的洞察,使我们能够清晰了解自身与竞争对手的优劣,进而设定客户期望,并不断优化我们的产品。通过这种合作模式,我们得以与行业内的专家们紧密合作,共同创造增长机遇,最终为我们的客户——我们的首要任务——提供更为出色的产品。
NVIDIA
我们欣然展示NVIDIA加速计算平台在MLPerf推理v4.0中惊艳的推理性能。NVIDIA HGX H100平台集成了高达八个H100张量核心GPU,配备高速互连,使得在GPT-J测试中的性能相较于上一轮提升了近3倍,这得益于我们先进的TensorRT-LLM软件。这款推理优化器和运行时通过开源的模块化Python API,轻松定义、优化和执行新的架构及增强功能,随着LLM技术的不断发展,其易用性和可扩展性也得到了显著提升。
此外,我们首次亮相了NVIDIA HGX H200AI超级计算平台,它搭载了最新的H200张量核心GPU。HGX H200采用高性能定制热解决方案,在新的Llama 2 70B LLM测试中,其性能相较于HGX H100提升了高达45%。同时,NVIDIA GH200 Grace Hopper Superchip将NVIDIA Grace CPU与NVIDIA Hopper GPU完美融合在一个功能全面、部署便捷的模块中,从而将H100 GPU的卓越性能延伸至LLM、文本到图像生成AI以及推荐系统等多个领域。
NVIDIA AI平台横跨整个技术堆栈,不断创新,加速整个AI工作流程——从数据准备到模型训练,再到从云端到边缘的部署推理——并在广泛的AI模型上展现出卓越的性能。它还得到了各大主流云和服务器制造商的广泛支持,并通过NVIDIA AI Enterprise为用户提供了通往生产AI和企业级支持的最快途径。
我们很高兴看到包括ASUSTeK、Azure、Broadcom、Cisco、Dell、Fujitsu、GigaComputing、Google、惠普、联想、Oracle、广达云科技、Supermicro和Wiwynn在内的14家NVIDIA合作伙伴提交了卓越的推理成果,这些解决方案覆盖了NVIDIA数据中心GPU组合的广泛范围,既适用于本地环境,也适用于云端部署。
我们还要对MLCommons的杰出工作表示赞赏,他们将基准测试最佳实践引入计算领域,实现了对AI和HPC平台的苹果对苹果比较,使我们能够更好地了解和比较不同工作负载下的产品性能。
Oracle
Oracle Cloud Infrastructure(OCI)提供全面的AI基础设施、前沿的生成式AI技术、丰富的AI服务、高效的机器学习服务,并在我们的Fusion应用程序中集成了AI功能。我们的AI基础设施组合强大,包括由NVIDIA H100、NVIDIA A100和NVIDIA A10 GPU驱动的高效裸金属实例和虚拟机。
高端的BM.GPU.H100.8实例在推理基准测试中展现出了卓越性能,OCI提供的性能至少与其他部署(无论是本地还是云基础设施)持平。这些实例的每个节点均配备八个NVIDIA GPU,除了强大的推理能力外,对于训练工作负载,每个节点还可以通过高性能RDMA网络集群连接数万个GPU。
预计到2024年3月,OCI的BM.GPU.H100.8实例将在OCI平台上提供最高性能的NVIDIA GPU。
Quanta Cloud Technology
Quanta Cloud Technology(QCT)作为全球领先的数据中心解决方案提供商,能够支持各种高性能计算和AI工作负载,并在MLCommons发布的最新MLPerf结果中名列前茅。
QCT积极参与了最新一轮的MLPerf推理v4.0,并向数据中心封闭分区提交了出色的成果,其中包括新型的稳定扩散和llama2模型,适用于不同的系统配置。
其中,QCT展示的一款配置是其最新平台QuantaGrid S74G-2U,配备了NVIDIA Grace Hopper Superchip。CPU与GPU之间的一致内存与NVLink C2C互连技术大幅提升了内存密集型AI推理的性能。QCT在多个AI任务中在数据中心类别中均取得了令人瞩目的性能表现。
QuantaGrid D54U-3U是专为AI/HPC设计的加速服务器。它支持两个第五代Intel至强处理器,这款3U系统能够支持四个双宽加速器卡或多达八个单宽加速器卡,为各种AI/HPC应用程序提供了一个全面且灵活的优化架构。此次,QCT分别验证了四个NVIDIA H100 PCIe和四个NVIDIA L40S PCIe卡的结果。
另一款展示的配置是QCT的QuantaGrid D54X-1U,它配备了Intel至强可扩展处理器,特别适用于CPU-only推理场景。QCT的服务器配置经过严格验证,能够在具有Intel AMX指令集的通用AI工作负载中展现出卓越性能。
展望未来,QCT致力于为学术界和工业界用户提供全方位的硬件系统、解决方案和优质服务。该公司将继续与MLCommons社区分享其MLPerf成果,为MLPerf推理和训练基准的进步贡献自己的力量。
Qualcomm Technologies, Inc.
Qualcomm云AI推理加速器凭借公司在先进信号处理和功率效率方面的深厚积累,在数据中心和边缘环境中提供了高吞吐量、低功耗的AI推理处理能力。
在v4.0回合中,Qualcomm推出了AI推理加速器Cloud AI 100 Ultra,并提交了“封闭预览”模式的评估结果。Cloud AI 100 Ultra的早期预览结果充分展示了其在低功率下的卓越性能,这一点在ML基准测试中得到了有力证明。与Cloud AI 100 Pro提交相比,所有Cloud AI 100 Ultra提交的性能提升了2.5到3倍,同时每个加速器的功耗保持在150W以下。除了NLP和计算机视觉网络外,我们还展示了GenAI Stable Diffusion XL的提交成果。我们的合作伙伴Dell、惠普和联想也提交了Cloud AI 100 Ultra卡的预览结果。
在Cloud AI 100方面,CTuning首次使用由8个Cloud AI 100标准加速器驱动的Amazon EC2 DL2q云实例提交了结果,其性能与独立服务器相当。此外,CTuning还使用由4个Cloud AI 100 Pro加速器驱动的Cirrascale Quad AI 100云实例提交了MLPerf基准测试结果,实现了与独立系统可比较的优异表现。
Qualcomm在MLPerf推理v4.0方面的成果超越了其自身先前在所有类别中的峰值离线性能和功率效率记录。配备16个QualcommCloud AI 100 Ultra加速器(150W TDP)的2U数据中心服务器平台,在预览模式下实现了超过902K ResNet50 inf/Sec的出色吞吐量。同时,它还创造了新的历史最高功率效率记录,ResNet50实现了275 QPS/Watt,RetinaNet实现了5.2 QPS/Watt,BERT实现了10.2 QPS/Watt。
这些Qualcomm提交的结果得益于使用KRAI的X和KILT技术。Qualcomm和骁龙是Qualcomm公司的商标或注册商标。Qualcomm云AI和骁龙是Qualcomm Technologies, Inc.及/或其子公司的产品。
Supermicro
Supermicro作为大规模AI数据中心基础设施的构建翘楚,与全球企业开源解决方案领军者Red Hat公司携手,共创历史,成功提交了首个Red HatOpenShift AI MLPerf推理v4.0。Red HatOpenShift AI平台以其灵活性和可扩展性著称,为AI应用程序的构建、部署和管理提供了强大工具。
GPU A+服务器AS-4125GS-TNRT展现了卓越的GPU支持和配置能力,不仅支持主动与被动GPU,而且通过双根或单根配置,能够轻松应对多达10个双宽、全长GPU的部署需求。值得一提的是,其双根配置可直接连接8个GPU,无需PLX开关,有效降低了延迟,提升了整体性能,这对于应对AI和HPC工作负载的严苛挑战具有重大意义。
Red HatOpenShift的引入,极大地简化了AI/ML工作负载的创建、调度与监控流程,确保了操作的安全与便捷。OpenShift操作员能够精准地发现、配置并监控GPU、存储及网络设备,为用户提供了前所未有的易用性、灵活性与安全性。
Red HatOpenShift AI不仅是一个技术平台,更是推动AI创新的重要引擎。它利用开源技术,为团队提供了稳定且一致的操作环境,支持从实验到模型部署的完整流程。无论是本地还是公共云环境,Red HatOpenShift AI都能轻松应对,展现出强大的适应性。
在此次提交中,我们充分展示了OpenShift AI模型服务堆栈的卓越灵活性,支持使用包括vLLM在内的开源LLM运行时,并实现了自定义运行时功能。我们自豪地宣布,在NVIDIA GPU平台上,我们是本轮唯一使用vLLM提交GPT-J-6b和llama-2-70b结果的团队,且无需任何量化或模型编译过程。
SiMa
SiMa.ai在边缘AI技术领域独树一帜,树立了性能与能效的新标杆。在最新发布的MLPerf基准测试报告中,我们欣喜地分享了卓越成果:在所有类别中,我们的FPS均超越了2023年8月的提交记录,提升幅度高达7%至16%。
在边缘计算领域,功率限制与任务复杂性常常形成矛盾。然而,SiMa.ai不仅成功提升了FPS/W,更在所有工作负载上实现了FPS的显著增长。这一成就源于我们在MLPerf 3.1提交中所积累的丰富经验。FPS/W作为衡量系统能效的关键指标,每瓦电能处理帧数的提升,充分展现了我们技术的先进性。
特别值得一提的是,在SingleStream模式下,我们的FPS增长率超过16%,这一成绩在MLPerf v4.0提交中尤为亮眼。因为SingleStream批量1性能正是实际应用中主导的工作负载。这一显著进步得益于MLA Runtime平台软件的强大支持,其在优化端到端模型执行方面取得了卓越成果。更重要的是,我们将这些技术进步转化为实际应用中的优势,使客户能够体验到所有模型的显著性能提升,为边缘AI应用开启了全新的价值空间。
SiMa.ai在MLPerf中的卓越表现,是我们广泛增长战略的重要组成部分。我们致力于为未来打造更快、更强大的解决方案,这不仅仅是一次技术升级,更是一次战略性的飞跃,进一步巩固了我们在边缘AI性能、效率和创新方面的领导地位。
SuperMicro
SuperMicro在AI基础设施解决方案领域表现突出,在MLPerf Inference v4.0竞赛中展现出令人瞩目的性能,成功提交了数据中心推理类别的闭环和开放环节的作品。
SuperMicro致力于为各类工作负载提供应用程序优化的系统解决方案。其中,SYS-821GE-TNHR便是我们为NVIDIA HGX H100 8-GPU平台精心打造的定制化产品。通过模块化设计,我们能够灵活满足客户的特定需求和工作负载要求。此外,我们针对最新的NVIDIA HGX系统及PCIe系统推出了液冷选项,确保部署能够充分利用高TDP CPU和GPU的性能,避免热节流问题。
SuperMicro的GPU服务器设计精良,能够高效处理大规模数据集和高需求工作负载。它们通过加速存储访问、降低延迟并优化存储带宽,显著提升了生产力和任务完成速度。结合NVIDIA GPU的高级访问方法(如本地DMA和RDMA),以及通过多个NIC和交换机构建的高性能网络,SuperMicro GPU服务器在AI、机器学习和HPC任务中表现出色。
SYS-521GE-TNRT服务器配备L40S GPU,通过PCIe 5.0双根交换机支持高达10个基于PCIe的GPGPU,展现出卓越的处理能力。L40S GPU拥有48GB GDDR6内存和高达91.6 TFLOP的理论性能,针对AI媒体和图形应用进行了优化,使其在高性能计算任务中极具价值。此外,该服务器还配备了双第四代Intel至强可扩展处理器、高达8TB的内存容量,以及具备24个热插拔NVMe/SATA/SAS驱动器插槽的丰富存储选项,为高性能计算提供了强大的支持。
SuperMicro为各种环境提供多样化的GPU系统,并在多个MLPerf基准测试中持续展现出高性能。展望未来,我们将继续优化系统配置,为客户提供更加出色的体验和性能。
Wiwynn
Wiwynn作为领先的超大规模数据中心云IT基础设施提供商,始终关注云计算、AI、5G和边缘计算的前沿进展。我们专注于生产高质量服务器,以满足包括AI在内的各种应用场景的需求。
在最新一轮的MLPerf Inference v4.0测试中,Wiwynn成功提交了ES200G2基准测试结果,涵盖了边缘和数据中心两大类别。其中,ES200G2是一款2U服务器,专为满足电信用途的多样化需求而设计,包括边缘应用、5G服务管理推理主机以及数据中心应用。
在边缘类别中,我们对配备两个NVIDIA L40S GPU的ES200G2进行了基准测试,展现出在图像识别和其他AI应用中的出色性能。而在数据中心类别中,我们则对搭载Intel第5代至强处理器的ES200G2进行了测试,该服务器能够组建高效的服务器池,执行各种复杂任务。这两个测试结果均充分证明了该平台在运行主流AI框架时的卓越性能。
Wiwynn的企业使命是“提供从边缘到云的最佳TCO、工作负载和能源优化的IT解决方案”。我们将继续致力于实现这一目标,并积极参与社区活动。我们对创新和卓越的坚定承诺体现在我们积极参与行业基准测试(如MLPerf Inference v4.0),努力展示我们产品的卓越性能,并为推动该领域的进步贡献力量。
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)